智能论文笔记

The SZ flux-mass ($Y$-$M$) relation at low halo masses: improvements with symbolic regression and strong constraints on baryonic feedback

Digvijay Wadekar , Leander Thiele , J. Colin Hill , Shivam Pandey , Francisco Villaescusa-Navarro , David N. Spergel , Miles Cranmer , Daisuke Nagai , Daniel Anglés-Alcázar , Shirley Ho

分类：人工智能 | 机器学习

2022-09-05

光环伴形培养基中的离子气体通过热阳光阳光层（TSZ）效应在宇宙微波背景上留下烙印。来自活性银河核（AGN）和超新星的反馈会影响晕孔集成TSZ通量的测量（$ y_ \ mathrm {sz} $），并导致其与光晕质量的关系（$ y_ \ mathrm {sz} -mm $ ）偏离病毒定理的自相似幂律预测。我们对使用骆驼，一套流体动力模拟的套件进行了全面研究，反馈处方的差异很大。我们使用两个机器学习工具（随机森林和符号回归）的组合来搜索$ y-m $关系的类似物，这对低质量的反馈过程（$ m \ sillesim 10^{14} \，h^， {-1} \，m_ \ odot $）;我们发现，仅替换$ y \ rightarrow y（1+m _*/m_ \ mathrm {gas}）$在关系中使其非常相似。这可以用作低质量簇和星系组的强大多波长质量代理。我们的方法通常对于提高其他天体分级关系的有效性领域通常也很有用。我们还预测，$ y-m $关系的测量值可以在反馈参数的某些组合和/或排除超级新闻和AGN反馈模型的主要部分，以提供百分比的约束。艺术流体动力模拟。我们的结果对于使用即将进行的SZ调查（例如SO，CMB-S4）和Galaxy Surveys（例如Desi和Rubin）来限制Baryonic反馈的性质。最后，我们发现，$ y-m _*$的另一种关系提供了有关反馈的补充信息，而不是$ y-m $。

translated by 谷歌翻译

The CAMELS project: public data release

Francisco Villaescusa-Navarro , Shy Genel , Daniel Anglés-Alcázar , Lucia A. Perez , Pablo Villanueva-Domingo , Digvijay Wadekar , Helen Shao , Faizan G. Mohammad , Sultan Hassan , Emily Moser

分类：人工智能 | 机器学习

2022-01-04

制定了具有机器学习模拟（骆驼）项目的宇宙学和天体物理学，通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真，2,049个n-body和2,184个最先进的流体动力模拟，在参数空间中采样巨大的体积。在本文中，我们介绍了骆驼公共数据发布，描述了骆驼模拟的特性和由它们产生的各种数据产品，包括光环，次麦，银河系和空隙目录，功率谱，Bispectra，Lyman - $ \ Alpha $光谱，概率分布函数，光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录：与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据，并包含143,922个快照，数百万光环，星系和摘要统计数据。我们提供有关如何访问，下载，读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。

translated by 谷歌翻译

E-commerce users' preferences for delivery options

Yuki Oyama , Daisuke Fukuda , Naoto Imura , Katsuhiro Nishinari

分类：机器学习

2022-12-30

Many e-commerce marketplaces offer their users fast delivery options for free to meet the increasing needs of users, imposing an excessive burden on city logistics. Therefore, understanding e-commerce users' preference for delivery options is a key to designing logistics policies. To this end, this study designs a stated choice survey in which respondents are faced with choice tasks among different delivery options and time slots, which was completed by 4,062 users from the three major metropolitan areas in Japan. To analyze the data, mixed logit models capturing taste heterogeneity as well as flexible substitution patterns have been estimated. The model estimation results indicate that delivery attributes including fee, time, and time slot size are significant determinants of the delivery option choices. Associations between users' preferences and socio-demographic characteristics, such as age, gender, teleworking frequency and the presence of a delivery box, were also suggested. Moreover, we analyzed two willingness-to-pay measures for delivery, namely, the value of delivery time savings (VODT) and the value of time slot shortening (VOTS), and applied a non-semiparametric approach to estimate their distributions in a data-oriented manner. Although VODT has a large heterogeneity among respondents, the estimated median VODT is 25.6 JPY/day, implying that more than half of the respondents would wait an additional day if the delivery fee were increased by only 26 JPY, that is, they do not necessarily need a fast delivery option but often request it when cheap or almost free. Moreover, VOTS was found to be low, distributed with the median of 5.0 JPY/hour; that is, users do not highly value the reduction in time slot size in monetary terms. These findings on e-commerce users' preferences can help in designing levels of service for last-mile delivery to significantly improve its efficiency.

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

ConceptBeam: Concept Driven Target Speech Extraction

Yasunori Ohishi , Marc Delcroix , Tsubasa Ochiai , Shoko Araki , Daiki Takeuchi , Daisuke Niizumi , Akisato Kimura , Noboru Harada , Kunio Kashino

分类：机器学习

2022-07-25

我们为基于语义信息（称为ConceptBeam的语义信息）提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能，例如谐波结构和到达方向。相反，ConceptBeam通过语义线索解决了问题。具体来说，我们使用概念规范（例如图像或语音）提取说话者谈论概念的演讲，即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同，概念是抽象的概念，使直接代表目标概念的挑战。在我们的方案中，通过将概念规范映射到共享的嵌入空间，将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息，即混合物中的语音段以及指定的，无模式的概念。作为我们方案的证明，我们使用与口语标题相关的一组图像进行了实验。也就是说，我们从这些口语字幕中产生了语音混合物，并将图像或语音信号用作概念指定符。然后，我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较：一种基于从识别系统获得的关键字，另一个基于声音源分离。我们表明，概念束明显优于基线方法，并根据语义表示有效提取语音。

translated by 谷歌翻译

Introducing Auxiliary Text Query-modifier to Content-based Audio Retrieval

Daiki Takeuchi , Yasunori Ohishi , Daisuke Niizumi , Noboru Harada , Kunio Kashino

分类：自然语言处理 | 机器学习

2022-07-20

公共网站上可用的音频数据量正在迅速增长，并且需要有效访问所需数据的有效机制。我们提出了一种基于内容的音频检索方法，该方法可以通过引入辅助文本信息来检索与查询音频相似但略有不同的目标音频，该信息描述了查询和目标音频之间的差异。虽然传统基于内容的音频检索的范围仅限于与查询音频相似的音频，但提出的方法可以通过添加辅助文本查询模型的嵌入来调整检索范围，以嵌入查询示例音频中的嵌入共享的潜在空间。为了评估我们的方法，我们构建了一个数据集，其中包括两个不同的音频剪辑以及描述差异的文本。实验结果表明，所提出的方法比基线更准确地检索配对的音频。我们还基于可视化确认了所提出的方法获得了共享的潜在空间，在该空间中，音频差和相应的文本表示为相似的嵌入向量。

translated by 谷歌翻译

Adaptive deep learning for nonparametric time series regression

Daisuke Kurisu , Riku Fukami , Yuta Koike

分类： (统计)机器学习

2022-07-06

在本文中，我们开发了一种使用深神经网络（DNNS）的非组织和非线性时间序列的自适应非参数估计的一般理论。我们首先考虑两种类型的DNN估计量，非含糖和稀疏的DNN估计器，并为一般非平稳时间序列建立其泛化误差界限。然后，我们得出最小值下限，以估计属于一类非线性自回旋（AR）模型的平均功能，这些功能包括非线性通用添加剂AR，单个索引和阈值AR模型。在结果的基础上，我们表明稀疏的DNN估计量具有自适应性，并达到了许多非线性AR模型的最小最佳速率，直至多构型因子。通过数值模拟，我们证明了DNN方法在估计具有内在的低维结构和不连续或粗糙平均功能的非线性AR模型的有用性，这与我们的理论一致。

translated by 谷歌翻译

Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques

Kota Dohi , Keisuke Imoto , Noboru Harada , Daisuke Niizumi , Yuma Koizumi , Tomoya Nishida , Harsh Purohit , Takashi Endo , Masaaki Yamamoto , Yohei Kawaguchi

分类：机器学习 | (统计)机器学习

2022-06-13

我们介绍了声学场景和事件的检测和分类的任务描述（DCASE）2022挑战任务2：“用于应用域通用技术的机器状况监控的无监督异常的声音检测（ASD）”。域转移是ASD系统应用的关键问题。由于域移位可以改变数据的声学特征，因此在源域中训练的模型对目标域的性能较差。在DCASE 2021挑战任务2中，我们组织了一个ASD任务来处理域移动。在此任务中，假定已知域移位的发生。但是，实际上，可能不会给出每个样本的域，并且域移位可能会隐含。在2022年的任务2中，我们专注于域泛化技术，这些技术检测异常，而不论域移动如何。具体而言，每个样品的域未在测试数据中给出，所有域仅允许一个阈值。我们将添加挑战结果和挑战提交截止日期后提交的分析。

translated by 谷歌翻译

Grounding in social media: An approach to building a chit-chat dialogue model

Ritvik Choudhary , Daisuke Kawahara

分类：自然语言处理

2022-06-12

建立能够具有丰富人类的对话能力的开放域对话系统是语言产生中的基本挑战之一。但是，即使该领域的最新进展，现有的开放域生成模型也无法捕获和利用外部知识，从而导致对看不见的话语的重复或通用响应。当前关于知识对话生成的工作主要集中于角色融合或搜索基于事实的结构化知识来源（例如Wikipedia）。我们的方法采用了更广泛，更简单的方法，旨在通过在社交媒体上发现的随意互动模仿人类的反应行为来提高系统的原始对话能力。该模型利用联合检索器生成器设置，从Reddit查询一组过滤的评论数据，以充当SEQ2SEQ生成器的附加上下文。对开放域对话数据集的自动和人类评估证明了我们方法的有效性。

translated by 谷歌翻译

Building a Personalized Dialogue System with Prompt-Tuning

Tomohito Kasahara , Daisuke Kawahara , Nguyen Tung , Shengzhe Li , Kenta Shinzato , Toshinori Sato

分类：自然语言处理

2022-06-11

没有一致响应的对话系统并不令人着迷。在这项研究中，我们建立了一个对话系统，可以根据给定的角色设置（角色）响应以带来一致性。考虑到语言模型迅速增加的趋势，我们提出了一种使用迅速调整的方法，该方法在预训练的大规模语言模型上使用了低学习成本。英语和日语中自动和手动评估的结果表明，可以使用比微调更少的计算资源来构建具有更自然和个性化响应的对话系统。

translated by 谷歌翻译